Giới thiệu về Học tăng cường sâu (DRL)

Học tăng cường sâu (DRL) kết hợp khả năng biểu diễn ở chiều cao của Mạng nơ-ron sâu với khung điều khiển tối ưu của Học tăng cường. Khác với học có giám sát hoặc học không có giám sát, DRL các tác nhân học thông qua tương tác thử sai trong một môi trường động môi trường, đưa ra các quyết định liên tiếp mà không cần nhãn rõ ràng ngay lập tức. Sự tích hợp này cho phép các tác nhân xử lý trực tiếp các đầu vào phức tạp, thô (như dữ liệu hình ảnh).

1. Mô hình học tập DRL

Tác nhân RL hoạt động theo một vòng lặp liên tục: quan sát môi trường Trạng thái ($S_t$), thực hiện một Hành động ($A_t$), và nhận được một tín hiệu phần thưởng vô hướng có thể thưa thớt hoặc bị trì hoãn Phần thưởng ($R_{t+1}$). Thách thức chính là vấn đề phân bổ trách nhiệm: xác định hành động nào trong quá khứ đã gây ra tín hiệu phần thưởng trong tương lai.

2. Mục tiêu tối ưu hóa

Mục tiêu cuối cùng là tìm ra một chiến lược tối ưu, hay nói cách khác là chính sách ($\pi^*$), là một ánh xạ từ trạng thái sang hành động, nhằm tối đa hóa Tổng phần thưởng được chiết khấu kỳ vọng ($G_t$). Yếu tố hệ số chiết khấu ($\gamma \in [0, 1]$) là yếu tố toán học then chốt, xác định mức độ chúng ta đánh giá phần thưởng ngay lập tức so với phần thưởng dự kiến trong tương lai xa.

$$G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$$

The Fundamental RL Cycle

An illustration of the Markov Decision Process (MDP) framework. The Agent's policy dictates the action ($A_t$) based on the current state ($S_t$), leading the Environment to transition to a new state ($S_{t+1}$) and provide a reward ($R_{t+1}$).

The Reinforcement Learning Cycle: Agent, Environment, State, Action, Reward

Question 1

How does the DRL agent receive feedback from the environment?

Explicit labels/targets

Backpropagation through time

Scalar reward signal

Labeled demonstration data

Question 2

What does the policy ($\pi$) mathematically represent?

The predicted total reward

A distribution over actions given a state

The probability of transitioning to a new state

The error between predicted and actual returns

Challenge: The Discount Factor

Analyzing the Temporal Horizon.

Consider two scenarios:
1. $\gamma = 0$
2. $\gamma \approx 1$

Describe the agent's behavioral preference in each case regarding the timeline of rewards.

Step 1

How does the choice of $\gamma$ affect the policy's horizon?

Solution:
If $\gamma = 0$, the agent is myopic (shortsighted), focusing only on the immediate reward $R_{t+1}$. If $\gamma \approx 1$, the agent is far-sighted, equally weighting immediate and distant future rewards, leading to planning over a very long horizon.